Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
成功的材料选择对于设计和制造产品的设计自动化至关重要。设计师通过通过性能,制造性和可持续性评估选择最合适的材料来利用他们的知识和经验来创建高质量的设计。智能工具可以通过提供从先前的设计中学到的建议来帮助具有不同专业知识的设计师。为了实现这一目标,我们介绍了一个图表表示学习框架,该框架支持组装中身体的物质预测。我们将材料选择任务作为节点级预测任务,对CAD模型的汇编图表示,并使用图形神经网络(GNN)对其进行处理。在Fusion 360画廊数据集上执行的三个实验协议的评估表明我们的方法的可行性,达到了0.75 TOP-3 Micro-F1分数。提出的框架可以扩展到大型数据集,并将设计师的知识纳入学习过程。这些功能使该框架可以作为设计自动化的推荐系统以及未来工作的基准,从而缩小了人类设计师与智能设计代理之间的差距。
translated by 谷歌翻译
我们介绍了一个大规模实验,该实验对编码器进行了预处理,其参数计数范围从700m到9.3b不等,随后蒸馏到较小的型号中,范围为17m-170亿参数,其应用到自然语言理解(NLU)组件(NLU)组件(虚拟助手系统。尽管我们使用70%的口语数据训练,但在对书面形式的跨语性自然语言推论(XNLI)语料库进行评估时,我们的教师模型与XLM-R和MT5相当。我们使用系统中的内域数据对教师模型进行了第二阶段的训练,以提高了3.86%的相对分类,而相对7.01%的插槽填充。我们发现,即使是从我们的2阶段教师模型中提取的170亿参数模型,与仅接受公共数据的2.3B参数老师相比,与2.3B参数老师相比,意图分类更好2.88%,并且7.69%的插槽填充错误率更好(第1阶段),强调了。内域数据对训练的重要性。当使用标记的NLU数据进行离线评估时,我们的17m参数阶段2蒸馏模型的表现分别优于XLM-R碱基(85m Params)和Distillbert(42m Params),分别优于4.23%至6.14%。最后,我们介绍了一个完整的虚拟助手实验平台的结果,在该平台中,我们发现使用经过预训练和蒸馏管道训练的模型超过了从8500万参数教师蒸馏的模型,在自动测量全系统用户不满的自动测量中,从8500万参数教师蒸馏出3.74%-4.91%。
translated by 谷歌翻译
倦怠是影响近一半医疗工作者的重大公共卫生问题。本文介绍了基于电子健康记录(EHR)活动日志的医师倦怠的第一个端到端深度学习框架,即任何EHR系统中可用的医师工作活动的数字痕迹。与仅依靠调查进行倦怠测量的先前方法相反,我们的框架直接从大规模的临床医生活动日志中了解了医师行为的深刻表示,以预测倦怠。我们提出了基于活动日志(HIPAL)的层次结构预测,该预测具有预先训练的时间依赖时间的活动嵌入机制,适用于活动日志和分层预测模型,该模型反映了临床医生活动日志的自然等级结构,并捕获了医生的演化。短期和长期水平的倦怠风险。为了利用大量未标记的活动日志,我们提出了一个半监督的框架,该框架学会了将从未标记的临床医生活动中提取的知识转移到基于HIPAL的预测模型中。从EHR收集的1500万个临床医生活动日志的实验证明了我们提出的框架在医师倦怠和培训效率方面的预测框架比最先进的方法的优势。
translated by 谷歌翻译
3D光学相干断层扫描图像中视网膜流体的准确分割是诊断和个性化眼部疾病的关键。尽管深度学习在这项任务上取得了成功,但受过训练的监督模型通常会因不像标记示例的图像而失败,例如对于使用不同设备获取的图像。我们在此提出了一个新型的半监督学习框架,用于从新未标记的域分割体积图像。我们共同使用受监督和对比度学习,还引入了一种对比配对方案,该方案利用3D中附近切片之间的相似性。此外,我们建议通过渠道聚合作为对比特征图投影的常规空间释放聚合的替代方法。我们评估了从(标记的)源域对(未标记的)目标域的域适应方法,每个方法都包含具有不同采集设备的图像。在目标域中,我们的方法获得了比SIMCLR(最先进的对比框架)高13.8%的骰子系数,并导致结果可与该领域中有监督的训练的上限相当。在源域中,我们的模型还通过成功利用来自许多未标记的图像的信息,将结果提高了5.4%。
translated by 谷歌翻译
蒸馏工作导致语言模型更紧凑,没有严重的性能下降。蒸馏的标准方法培训了针对两个目标的学生模型:特定于任务的目标(例如,语言建模)和模仿目标,并鼓励学生模型的隐藏状态与较大的教师模型类似。在本文中,我们表明,增强蒸馏有利于第三个目标,鼓励学生通过交换干预培训(IIT)来模仿教师的因果计算过程。 IIT推动学生模型成为教师模型的因果抽象 - 一种具有相同因果结构的更简单的模型。 IIT是完全可差异的,容易实施,并与其他目标灵活结合。与伯特标准蒸馏相比,通过IIT蒸馏导致维基百科(屏蔽语言建模)逐步困惑,并对胶水基准(自然语言理解),队(问题接听)和Conll-2003(命名实体识别)进行了改进。
translated by 谷歌翻译
在许多领域,我们有很好的了解有关导致结构的洞察,这将使我们训练有素的型号有用,同时仍然可以以数据驱动的方式学习。为此,我们介绍了交换干预培训的新方法(IIT)。在IIT中,我们(1)与神经模型中的表示的因果模型中的变量和(2)列车在一个神经模型中,以匹配当两个模型中的对齐表示时的基本输入上的因果模型的反事行为它们是第二源输入的值。 IIT完全可分辨,灵活地与其他目标结合,并保证目标因果模型是当其损失最小化时神经模型的ACAUSAL抽象。我们在结构化视觉任务(MNIST-PVR)和导航指令任务(REARCAN)上评估IIT。我们将IIT与多任务培训目标和数据增强进行比较。在我们的所有实验中,IIT在他们实现目标因果模型的意义上实现了最佳结果,并产生了更可观的诠释。
translated by 谷歌翻译
T2磁共振成像(MRI)中淋巴结(LN)的鉴定是放射科在评估淋巴抑制性疾病期间的重要步骤。节点的大小在其分期中发挥着至关重要的作用,并且放射科有时有时使用额外的对比度序列,例如扩散加权成像(DWI)进行确认。然而,淋巴结在T2 MRI扫描中具有多样化的外观,使得转移的阶段难以实现。此外,放射科医师通常会在繁忙的一天中错过较小的转移性淋巴结。要处理这些问题,我们建议使用检测变压器(DETR)网络本地化可疑转移性淋巴结,用于挑战不同扫描仪和考试协议获得的T2 MRI扫描。通过边界盒融合技术降低了误报(FP),并且达到了每张图像4 FP的65.41 \%的精确度和91.66 \%。据我们所知,我们的结果改善了T2 MRI扫描中的目前的淋巴结检测最先进的淋巴结检测。
translated by 谷歌翻译
我们提出了一种使用流生理时间序列的端到端模型,以准确预测低氧血症的近期风险,低氧血症是一种罕见但威胁生命的疾病,已知在手术期间造成严重的患者伤害。受到以下事实的启发:低氧血症事件是根据未来观察到的低spo2(即血氧饱和度)实例定义的,我们提出的模型使对未来的低spo2实例和低氧血症结果的混合推断,并由关节序列启用同时优化标签预测的判别解码器的自动编码器,以及对数据重建和预测进行了培训的两个辅助解码器,它们无缝地学习上下文的潜在表示,这些表示捕获了当前状态之间的过渡到未来状态。所有解码器都共享一个基于内存的编码器,有助于捕获患者测量的全局动态。对于一个主要的学术医学中心进行了72,081次手术的大型手术队列,我们​​的模型优于所有基础,包括最先进的低氧预测系统使用的模型。能够以临床上可接受的警报对近期低氧事件的警报进行分辨率的实时预测,尤其是更关键的持续性低氧血症,我们提出的模型在改善临床决策和减轻围手术期的减轻负担方面有希望。
translated by 谷歌翻译
本文回顾了关于压缩视频质量增强质量的第一个NTIRE挑战,重点是拟议的方法和结果。在此挑战中,采用了新的大型不同视频(LDV)数据集。挑战有三个曲目。Track 1和2的目标是增强HEVC在固定QP上压缩的视频,而Track 3旨在增强X265压缩的视频,以固定的位速率压缩。此外,轨道1和3的质量提高了提高保真度(PSNR)的目标,以及提高感知质量的2个目标。这三个曲目完全吸引了482个注册。在测试阶段,分别提交了12个团队,8支球队和11支球队,分别提交了轨道1、2和3的最终结果。拟议的方法和解决方案衡量视频质量增强的最先进。挑战的首页:https://github.com/renyang-home/ntire21_venh
translated by 谷歌翻译